Text Data Pre-processing (Tokenization, Stemming, Lemmatization)

Machine Learning - পাইথন কৃত্রিম বুদ্ধিমত্তা (Artificial Intelligence with Python) প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (Natural Language Processing - NLP) |
169
169

Text Data Pre-processing হল একটি গুরুত্বপূর্ণ পদক্ষেপ যা টেক্সট ডেটাকে মডেলিং এবং বিশ্লেষণের জন্য প্রস্তুত করতে সাহায্য করে। প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) এ, tokenization, stemming, এবং lemmatization হল তিনটি গুরুত্বপূর্ণ কৌশল যা টেক্সট ডেটা বিশ্লেষণ, মডেল ট্রেনিং এবং ভাষাগত কাঠামো অনুধাবন করার জন্য ব্যবহৃত হয়।


1. Tokenization

Tokenization হল একটি প্রক্রিয়া যেখানে টেক্সট ডেটাকে ছোট ছোট ইউনিটে (যা tokens নামে পরিচিত) বিভক্ত করা হয়। একটি token হতে পারে একটি শব্দ, বাক্য, বা কোনো অন্য চরিত্র। এই প্রক্রিয়াটি টেক্সট ডেটাকে আরও সহজে প্রক্রিয়া এবং বিশ্লেষণযোগ্য করতে সহায়ক।

ধরন:

  • Word Tokenization: একটি বাক্যকে শব্দের মধ্যে ভাগ করা।
  • Sentence Tokenization: একটি প্যারাগ্রাফ বা টেক্সটকে বাক্যের মধ্যে ভাগ করা।

উদাহরণ:

import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

text = "Hello there! How are you doing today? This is an example of tokenization."

# Sentence Tokenization
sentences = sent_tokenize(text)
print(sentences)

# Word Tokenization
words = word_tokenize(text)
print(words)

আউটপুট:

['Hello there!', 'How are you doing today?', 'This is an example of tokenization.']
['Hello', 'there', '!', 'How', 'are', 'you', 'doing', 'today', '?', 'This', 'is', 'an', 'example', 'of', 'tokenization', '.']

2. Stemming

Stemming হল একটি প্রক্রিয়া যা শব্দের মূল রূপ বা "stem" বের করার জন্য ব্যবহৃত হয়। এটি একটি শব্দকে তার মূল রূপে রূপান্তরিত করে, তবে কিছু ক্ষেত্রে এটি একটি মানসম্পন্ন শব্দ হতে নাও পারে। উদাহরণস্বরূপ, "running" কে "run" এবং "better" কে "better" রূপে রূপান্তরিত করা।

ফিচার:

  • Prefix এবং suffix সরিয়ে শব্দের মূল রূপে রূপান্তরিত করে।
  • সাধারণত porter stemmer বা snowball stemmer ব্যবহার করা হয়।

উদাহরণ:

from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

# শব্দগুলোকে স্টেম করা
words = ["running", "runner", "ran", "easily", "fairly"]
stems = [stemmer.stem(word) for word in words]
print(stems)

আউটপুট:

['run', 'runner', 'ran', 'easili', 'fairli']

দ্রষ্টব্য:

  • এখানে "running" এবং "ran" এর স্টেম 'run' হয়ে গেছে, তবে "easily" এবং "fairly" স্টেম হয়ে 'easili' এবং 'fairli' হয়ে গেছে, যা প্রায়ই অযাচিত পরিবর্তন হতে পারে।

3. Lemmatization

Lemmatization হল একটি আরও উন্নত প্রক্রিয়া যা শব্দের সঠিক মূল রূপ বা "lemma" বের করে। এটি স্টেমিংয়ের মতো নয়, কারণ এটি শব্দের অর্থ এবং ব্যবহার বুঝে মূল রূপ নির্ধারণ করে। Lemmatization শব্দের সঠিক ব্যাকরণগত রূপ প্রদান করে, যেমন "better" কে "good" বা "running" কে "run" এ রূপান্তরিত করা।

ফিচার:

  • Contextual Analysis: শব্দের প্রেক্ষিত অনুযায়ী তার সঠিক lemma নির্বাচন করা হয়।
  • More Accurate: এটি স্টেমিংয়ের চেয়ে অনেক বেশি সঠিক এবং ব্যাকরণগতভাবে সঠিক রূপ প্রদান করে।

উদাহরণ:

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

# শব্দগুলোকে লেমা করা
words = ["running", "runner", "ran", "better", "worse"]
lemmas = [lemmatizer.lemmatize(word, pos='v') for word in words]
print(lemmas)

আউটপুট:

['run', 'runner', 'run', 'better', 'worse']

দ্রষ্টব্য:

  • এখানে "running" এবং "ran" এর lemma 'run' হয়ে গেছে, "better" ও "worse" এর লেমা সংশ্লিষ্ট ব্যাকরণ অনুযায়ী পরিবর্তিত হয়নি।

Tokenization, Stemming, and Lemmatization এর মধ্যে পার্থক্য

পার্থক্যের ধরনTokenizationStemmingLemmatization
উদ্দেশ্যটেক্সটকে ছোট ছোট ইউনিটে (tokens) ভাগ করাশব্দের মূল রূপ বের করাশব্দের সঠিক মূল রূপ বের করা
আউটপুটশব্দ বা বাক্যঅসম্পূর্ণ শব্দসঠিক ব্যাকরণগত রূপ
একিউরেসিN/Aকম একিউরেসিউচ্চ একিউরেসি
কষ্ট/কমপ্লেক্সিটিতুলনামূলকভাবে সহজঅপেক্ষাকৃত দ্রুত, কিন্তু মাঝে মাঝে অশুদ্ধধীর, তবে বেশি সঠিক
ব্যবহারডেটা প্রক্রিয়াকরণদ্রুত প্রক্রিয়াকরণ, সাধারণ ক্ষেত্রেটেক্সট বিশ্লেষণ, ক্লাসিফিকেশন, সেন্টিমেন্ট বিশ্লেষণ

Text Data Pre-processing এর ব্যবহার

  1. Sentiment Analysis: স্টেমিং বা লেমাটাইজেশন ব্যবহার করে শব্দগুলির আস্থা এবং মানে বের করা হয়, যা সেন্টিমেন্ট বিশ্লেষণে সহায়ক।
  2. Text Classification: টেক্সট ডেটাকে বিভিন্ন শ্রেণিতে বিভক্ত করতে pre-processing গুরুত্বপূর্ণ ভূমিকা পালন করে।
  3. Chatbots এবং Virtual Assistants: tokenization এবং lemmatization ব্যবহৃত হয় যাতে প্রশ্ন এবং উত্তর সঠিকভাবে প্রক্রিয়া করা যায়।

সারাংশ

Text Data Pre-processing একটি অত্যন্ত গুরুত্বপূর্ণ ধাপ যা টেক্সট ডেটাকে মডেলিং এবং বিশ্লেষণের জন্য প্রস্তুত করতে সাহায্য করে। Tokenization শব্দ বা বাক্যের মধ্যে ডেটা ভাগ করে, Stemming শব্দের মূল রূপ বের করে, এবং Lemmatization শব্দের সঠিক ব্যাকরণগত রূপ বের করে। এভাবে এগুলি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) কাজে ব্যবহৃত হয়।

Content added By
Promotion